[Day 12] 政府開放資料_計程車營運狀況調查_回歸預測

2019 iT 邦幫忙鐵人賽

DAY 12

AI & Data

機器學習_資料採礦_透過數據協助決策_R語言系列第 12 篇

2019鐵人賽

yanchen

2018-10-24 22:47:29

1238 瀏覽

分享至

預測，我們建立模型的目的，是要用來預測以及求出最佳解的！在R語言當中，建完模型就可以透過R_code 的 predict() 輸入你當下的狀態，從而得知你現在的收入受否合乎理論。


new.xx <- data.frame("經營型態" = 1,"巡迴攬客"=1,"招呼站等候"=1,"定點.不含招呼站.排班"=1,
                     "車行等候" = 1,"已行駛公里數" =3,  "每月放假"    =5   ,"營業時數"=3,  
                     "每天空車時數" =2,"X105考慮停開計程車" =1,"加入無線電或衛星派遣車隊"=1, 
                     "年齡"  =3   , "教育程度"=2,"工作總年資"=2,"選擇開計程車之最主要原因"=1,
                     "最主要營業縣市"=1,"設置廣告物"=1,"性別"=1,"輪流駕駛" =1)
new.xx
predict(fit, new.xx) #fit是之前建立的模型

只要輸入你的基本資料(如上程式碼)，這個模型就能幫你預測你一天的所得薪資，我們應用自己建立的迴歸模型預測自己的薪水。我建立這個模型的目的有兩個，一個是像我十天前所說：我想要知道最好的特徵是哪些，以及現在已經完成的這部分，對現有狀態進行預測。

實務上進行"即時監控"我也有運用predict迴歸預測，"當下數據"與之前所有數據建立起來的迴歸模型為95%信賴區間以外的數值則會被抓出來討論離群值的原因，一次又一次抓出離群值後人工修正規則，讓抓出來的離群值越來越合理。
聽起來很不合理沒錯，明明是機器學習卻"人工修正規則"?
應該說這東西比較偏向是羅吉斯迴歸，y值只有合理跟不合理(yes or no)。要先人工判斷是(yes or no)然後自己每一天蒐集數據，最後才能自己拿來分析。要不然哪來的數據哈哈。

之後會再寫oversampling的東西，很久沒有這樣每天熬夜念書了，彷彿學生時代期中考似的，累歸累但還是挺有成就感的。